Библиотека собеса по Data Science | вопросы с собеседований

Что такое on-policy и off-policy алгоритмы?

Policy в контексте обучения с подкреплением (reinforcement learning) — это некоторое правило для агента, которым он руководствуется, чтобы выбирать действия в зависимости от текущего состояния среды.

Соответственно, on-policy и off-policy алгоритмы отличаются тем, как они взаимодействуют с policy.

▪️ On-policy алгоритмы
Эти алгоритмы обучаются на данных, собранных исключительно с использованием текущей policy, которую они оптимизируют. Ключевая особенность on-policy подхода в том, что он требует свежих данных, собранных с актуальной версии policy.
Пример: Vanilla Policy Gradient (VPG) — базовый алгоритм, который стал основой для более современных on-policy методов, таких как TRPO и PPO.

▪️ Off-policy алгоритмы
Off-policy алгоритмы обучаются на данных, собранных другой policy, которая может быть полностью независимой от текущей. Это позволяет использовать ранее накопленные данные или данные, собранные случайным образом.
Пример: Deep Deterministic Policy Gradient (DDPG), который совместно обучает Q-функцию и policy. Такие методы используют уравнение Беллмана, чтобы вычислять обновления, независимо от того, как были собраны данные.

#машинное_обучение
#глубокое_обучение

www.tg-me.com/cn/Библиотека собеса по Data Science | вопросы с собеседований/com.ds_interview_lib/694

1.0K viewsNov 18, 2024 at 12:01

tg-me.com/ds_interview_lib/694

Create: 2024-11-18
Last Update: 2025-07-04 23:34:45

BY Библиотека собеса по Data Science | вопросы с собеседований

Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/694

Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Telegram hopes to raise $1bn with a convertible bond private placement

Что такое on-policy и off-policy алгоритмы?Policy в контексте обучения с подкреплением (reinforcement learning) — это некоторое правило для агента